Google Cloud Data Engineer
$200, 二時間
取得したいが、、使いみちないかな...
模擬試験を受けて、何が問われてるのかを把握するが,,,仕事にできるイメージわかない...
jsonデータで、スキーマが時々変わる場合の対応
BigQueryで schemeのautodetection
データの永続化は、cloud storage. コネクタがある
DataProcはジョブに専念
Bigqueryで、IDの重複がある場合に、どういうクエリ?
row_number partition by idとしておいて、whereで row_num=1
ストリームデータ処理 グローバルなデータ流入、遅延データの処理
セッション windowの使い方、 最小ギャップ時間、ツールの選定
大量のIOTデバイスからのデータ処理
timestampをつけてメッセージの順序に基づいてクエリ
モニタリングエージェント。protobufメッセージの使い方?
pub/subに流して dataflow -> bigqueryでSQL
CSVファイルとapache spark?
sparkからの変換なので、dataproc? ->
Spanner vs BigTable
Cloud composer, BigQueryへのoperation
Dataflowのwindowの期間戦略?
固定、ギャップ、スライディング
Dataflowでのストリームデータの迅速?処理
Dataproc, 大量データ、ストレージ費用
cloud storage vs persitent disk
水平スケール、選択ツール
SQL文?にINTERLEAVE
あるテーブルのレコードの物理的な配置を別のテーブルのレコードの配下に置ける仕組み
Bigtableの 行キー設計
<sensorid>#<timestamp> で行キーを作成?, 定番?
Natural Language APIの分析項目
エンティティ分析, 固有名詞がくる
Cloud speech-to-Text API
短い音声(1分以内)ファイルは、同期モード。すぐに結果が得られる?
Cloud Vision APIの機能
位置情報を渡して、ランドマーク情報を得る
MLops エラー処理 AI Platform Prediction(Vertext AI?)
Jobsオブジェクト
Operationオブジェクト
training, testのフローを復習する
messageIDが同一になる可能性がある場合、
orderingKeyというものがある。これを使う、あとで理解する
データの増大にDatabase をどうスケールさせるか
シャーディング?...違う、sqlで自己結合を使うのではなく、テーブル分割で正規化
Bigquery、セキュリティポリシーを作る前に、audit logで利用動向を調べる
機密データの暗号化